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Capítulo 1 


Inferência Estatística e 
Amostragem 


1.1 DEFINIÇÃO DE INFERÊNCIA ESTATÍSTICA: 


Inferência estatística é uma área da Estatística cujo objetivo é fazer afirmações a partir de um 
conjunto de valores representativos (amostra) sobre um universo e se assume que a amostra é muito 
maior do que o conjunto de dados observados. Esta afirmação deve sempre vir acompanhada de 
uma medida de precisão sobre sua veracidade. Para realizar este trabalho, o estatístico coleta 
informações de dois tipos: experimentais (as amostras) e aquelas que obtém na literatura. As duas 
principais escolas de inferência são a inferência frequentista (ou clássica) e a inferência bayesiana. 


1.2 DEFINIÇÕES BÁSICAS 

Abaixo, algumas definições utilizadas em Inferência Estatística são apresentadas: 
Variável Aleatória: 

4 Característico numérico do resultado de um experimento. 

4 É a Função que associa a cada elemento do espaço amostral um número real. 


População e Amostra: 


4 População é o conjunto de todos os elementos ou resultados de um problema que está 
sendo estudado. 

4 Amostra é qualquer subconjunto da população que contém os elementos que podem ser 
observados e é onde as quantidades de interesse podem ser medidas. 

Parâmetros: 

4 Característica numérica (desconhecida) da distribuição dos elementos da população. 
Estimador: 

+ É a Função da amostra, construída com a finalidade de representar, ou estimar um 
parâmetro de interesse na população. 

Estimativa: 

4 Valor numérico que um estimador assume 

Exemplo: 


A distribuição da altura da população brasileira adulta pode ser representada por um 
modelo normal (embora as alturas não possam assumir valores negativos). Neste caso, temos como 
interesse estimar os parâmetros média e variância dessa distribuição. 


4 Solução 1: Medir a altura de todos os brasileiros adultos. 


4 Solução 2: Selecionar de forma aleatória algumas pessoas (amostra), analisá-las e inferir 
propriedades para toda a população. 


1.3 TÉCNICAS DE AMOSTRAGEM 


As Técnicas de Amostragem atuam no estudo de um pequeno grupo de elementos retirado de uma 
população que se pretende conhecer. Esses pequenos grupos retirados da população são 
chamados de Amostras. 


Veremos a seguir as principais técnicas de amostragem, divididas em probabilísticas e não- 
probabilísticas: 


1.3.1 TÉCNICAS PROBABILÍSTICAS (ALEATÓRIAS) 


As técnicas probabilísticas garantem a possibilidade de realizar afirmações sobre a população com 
base nas amostras. Normalmente, todos os elementos da população possuem a mesma 
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probabilidade de serem selecionados. Assim, considerando N como o tamanho da população, a 
probabilidade de cada elemento ser selecionado será 1/N. Estas técnicas garantem o acaso na 
escolha. 


São técnicas probabilísticas: 
$ Amostragem Aleatória Simples 


Amostragem Aleatória Simples é o processo mais elementar e frequentemente utilizado. Ela pode 
ser realizada a partir da numeração dos elementos da população de 1 ane sorteando, por meio de 
um dispositivo aleatório qualquer, X números dessa sequência, que corresponderão aos elementos 
pertencente à amostra. 


Exemplo 

Obter uma amostra representativa de 10% de uma população de 200 alunos de uma escola. 
1º) Numerar os alunos de 1 a 200; 

2º) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em uma urna; 


3º) Retirar da urna 20 pedaços de papel, um a um, formando a amostra da população. 


Nesta técnica de amostragem, todos os elementos da população têm a mesma probabilidade de 
serem selecionados: 1/N, onde N é o número de elementos da população. 


$ Amostragem Estratificada 


Quando a população possui características que permitem a criação de subconjuntos, as amostras 
extraídas por amostragem simples são menos representativas. Nesse caso, a amostragem 
estratificada é utilizada. 


Como a população se divide em subconjuntos, convém que o sorteio dos elementos leve em 
consideração tais divisões para que os elementos da amostra sejam proporcionais ao número de 
elementos desses subconjuntos. Observe a figura abaixo: 


Figura 01: Relação entre população e amostra 


População 


Amostra 


E Alunos 
DB Professores 


Exemplo 


Em uma população de 400 alunos, há 240 meninos e 160 meninas. Extraia uma amostra 
representativa de 10% dessa população. 


Nesse exemplo, há uma característica que permite identificar 2 subconjuntos, a característica Sexo. 
Considerando essa divisão, vamos extrair a amostra da população. 
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Tabela-1: Relação entre População e Amostra. 


SEXO POPULAÇÃO | AMOSTRA (10%) 
Masculino 240 24 
Feminino 160 16 

Total 400 40 


Portanto, a amostra deve conter 24 alunos do sexo masculino e 16 do sexo feminino, totalizando 40 
alunos, que correspondem a 10% da população. 


Para selecionar os elementos da população com o objetivo de formar a amostra, podemos executar 
os seguintes passos: 


1º) Numerar os alunos de 1 a 400, sendo os meninos numerados de 1 a 240 e as meninas, de 241 a 
400; 


2º) Escrever os números de 1 a 240 em pedaços de papel e colocá-los em uma urna A; 
3º) Escrever os números de 241 a 400 em pedaços de papel e colocá-los em uma urna B; 


4º) Retirar da urna A 24 pedaços de papel, um a um, e 16 da urna B, formando a amostra da 
população. 


São exemplos desta técnica de amostragem as pesquisas eleitorais por região, cidades pequenas e 
grandes, área urbana e área rural, sexo, faixa etária, faixa de renda, etc. 


4 Amostragem Sistemática 


Esta técnica de amostragem é aplicada em populações que possuem os elementos ordenados em 
que não há a necessidade de construir um sistema de referência. Nesta técnica, a seleção dos 
elementos que comporão a amostra pode ser feita por um sistema criado pelo pesquisador. 


Exemplo 


Obter uma amostra de 80 casas de uma rua que contém 2000 casas. Nesta técnica de amostragem, 
podemos realizar o seguinte procedimento: 


1º) Como 2000 dividido por 80 é igual a 25, escolhemos por um método aleatório qualquer um 
número entre 1 e 25, o que indica o primeiro elemento selecionado para a amostra. 


2º) Consideramos os demais elementos, periodicamente, de 25 em 25. 


Se o número sorteado entre 1 e 25 for o número 8, a amostra será formada pelas casas: 82, 33º, 58º, 
83º, 108º, etc. 


Apesar de esta técnica ser de fácil execução, há a possibilidade de haver ciclos de variação, o que 
tornariam a amostra não-representativa da população. 


4 Amostragem por Conglomerados 


Esta técnica é usada quando a identificação dos elementos da população é extremamente difícil. 
Todavia, pode ser relativamente fácil dividir a população em conglomerados (subgrupos) 
heterogêneos representativos da população global. 


A seguir, é descrito o procedimento de execução desta técnica: 
1º) Seleciona uma amostra aleatória simples dos conglomerados existentes; 


2º) Realizar o estudo sobre todos os elementos do conglomerado selecionado. 
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São exemplos de conglomerados: quarteirões, famílias, organizações, agências, edifícios, etc. 


Exemplo 
Estudar a população de uma cidade, dispondo apenas do mapa dos quarteirões da cidade. 


Neste caso, não temos a relação dos moradores da cidade, restando o uso dos subgrupos 
heterogêneos (conglomerados). Para realizar o estudo estatístico sobre a cidade, realizaremos os 
seguintes procedimentos: 


1º) Numerar os quarteirões de 1 an; 
2º) Escrever os números de 1 an em pedaços de papel e colocá-los em uma urna; 


3º) Retirar um pedaço de papel da urna e realizar o estudo sobre os elementos do conglomerado 
selecionado. 


1.3.2 TÉCNICAS NÃO-PROBABILÍSTICAS (NÃO-ALEATÓRIAS) 


São técnicas em que há uma escolha deliberada dos elementos da população onde não permite 
generalizar os resultados das pesquisas para a população, pois amostras não garantem a 
representatividade desta. 


São técnicas não-probabilísticas: 


9 Amostragem Acidental 


Trata-se da formação de amostras por aqueles elementos que vão aparecendo. Este método é 
utilizado, geralmente, em pesquisas de opinião em que os entrevistados são acidentalmente 
escolhidos. 


Exemplo 


Pesquisas de opinião em shoppings, praças e locais públicos de grandes cidades, etc. 


9 Amostragem Intencional 


De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que 
comporão a amostra. O pesquisador se dirige intencionalmente a grupos de elementos dos quais 
deseja saber a opinião. 


Exemplo 


Em uma pesquisa sobre preferência por determinada cerveja, o pesquisador entrevista os 
frequentadores dos bares de uma cidade. 


Agora que já conhecemos as principais técnicas de amostragem, vamos aprender a calcular o 
tamanho das amostras dos estudos estatísticos. 


Antes de prosseguir, vamos definir alguns termos: 

Parâmetro: Característica da população. 

Estatística: Característica descritiva de elementos de uma amostra. 

Estimativa: valor acusado por uma estatística que estima o valor de um parâmetro. 


O cálculo do tamanho da amostra está diretamente ligado ao erro amostral tolerável. 
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Mas o que é erro amostral? 


É a diferença entre o valor que a estatística pode acusar e o verdadeiro valor do parâmetro que se 
deseja estimar. 


O erro amostral tolerável é a margem de erro aceitável em um estudo estatístico. Para esclarecer 
melhor, é quando o apresentador do telejornal, em ano de eleições, anuncia: 


“O candidato A tem 42% das intenções de voto, 2 para mais, 2 para menos.” 


Quando o apresentador cita “2 para mais, 2 para menos”, ele se refere ao erro amostral tolerável 
para aquela pesquisa de intenções de voto. 


Tamanho da Amostra 


Obs.: um passo importante antes de iniciar o cálculo do tamanho da amostra é definir qual o erro 
amostral tolerável para o estudo que será realizado. 


Observe a seguinte fórmula: 
Onde: 
+ ny é a primeira aproximação do tamanho da amostra 


4 E, é o erro amostral tolerável (Ex.: 2% = 0,02) 


N.no 
n = 
N+mno 


, onde: 
4 N é o número de elementos da população 


4 n é o tamanho da amostra 


Observe o seguinte exemplo para compreender melhor: 


Exemplo 


Em uma empresa que contém 2000 colaboradores, deseja-se fazer uma pesquisa de satisfação. 
Quantos colaboradores devem ser entrevistados para tal estudo? 


Resolução 
N = 2000 


Definindo o erro amostral tolerável em 2% 


E, = 0,02 
no = 1/(E9)? 
no = 1/(0,02)? 

no = 2500 


n=(N.no)/(N+mno) 
n = (2000. 2500)/(2000 + 2500) 
n = 1111 colaboradores 
Com o erro amostral tolerável em 2%, 1111 colaboradores devem ser entrevistados para a pesquisa. 


Vamos repetir os cálculos, definindo o erro amostral tolerável em 4%. 
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N = 2000 
Eo = 0,04 
no = 1/(Eo)? 
no = 1/(0,04)? 
no = 625 


n=(N.no)/(N+no) 
n = (2000. 625)/(2000 + 625) 


n = 476 colaboradores 


Através deste segundo cálculo, é possível observar que, quando aumentamos a margem de erro, o 
tamanho da amostra reduz. 


E se houvesse 300.000 colaboradores na empresa? 


N = 300000 
E, = 0,04 
no = 1/(Eo)? 
no = 1/(0,04)2 
no = 625 


n=(N.no)/(N+no) 
n = (300000. 625)/(300000 + 625) 


n = 623 colaboradores 


Observe que a diferença entre ne no, neste último cálculo, é muito pequena. 


Portanto: se o número de elementos da população (N) é muito grande, a primeira aproximação do 
tamanho da amostra já é suficiente. 


Observe ainda: 

N = 2000 

E, = 0,04 

n = 476 colaboradores = 23,8% da população 
N = 300.000 

E, = 0,04 


n = 623 colaboradores = 0,2% da população 
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EXERCÍCIOS — CAPÍTULO 1 - INFERÊNCIA ESTATÍSTICA E AMOSTRAGEM. 


1) Exemplo: calcule o tamanho da amostra: N = 200 famílias E; = erro amostral tolerável = 4% (Eg= 
0,04) ny = 1/(0,04) 2 = 625 famílias n (tamanho da amostra corrigido) = n = 200x625/200+625 = 
125000/825 = 152 famílias 


E se a população fosse de 200.000 famílias? n = (200.000) . 625/ (200.000 + 625) = 623 famílias. 


Obs.: Observe que se N é muito grande, não é necessário considerar o tamanho exato N da 
população. Nesse caso, o cálculo da primeira aproximação já é suficiente para o cálculo. 


Tamanho da amostra: Observe que N = 200 famílias, E, = 4% n = 152 famílias 5> 76% da 
população. Observe que N = 200.000 famílias, E, = 4% n = 623 famílias -> 0,3% da população. 
Logo, é errôneo pensar que o tamanho da amostra n deve ser tomado como um percentual do 
tamanho da população para ser representativa. 


Figura-2: Tamanho da Amostra em Relação ao tamanho da População. 


2) Numa pesquisa para uma eleição presidencial, qual deve ser o tamanho de uma amostra 
aleatória simples, se deseja garantir um erro amostral não superior a 2%? 


Sol: n = no = 1/(0,02)2 = 1/0,0004 = 2500 eleitores 


3) Numa empresa com 1000 funcionários, deseja-se estimar a percentagem dos favoráveis a certo 
treinamento. Qual deve ser o tamanho da amostra aleatória simples que garanta um erro amostral 
não superior a 5%? 


N= 1000 empregados E, = erro amostral tolerável = 5% (Eo = 0,05) no = 1/(0,05) 2 = 400 empregados n = 
1000. 400 / (1000 + 400) = 286 empregados 
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CAPÍTULO 2 


Intervalo de Confiança 


2.1 INTERVALO DE CONFIANÇA 


Em estatística, o intervalo de confiança (IC) é um tipo de estimativa por intervalo de um parâmetro 
populacional desconhecido. Introduzido na estatística por Jerzy Neyman em 1937, é um intervalo 
observado (calculado a partir de observações) que pode variar de amostra para amostra e que, com 
dada frequência (nível de confiança), inclui o parâmetro de interesse real não observável. 


2.2 INTERVALO DE CONFIANÇA PARA A MÉDIA 


Quando queremos estimar a média de uma população através de uma amostra temos dois casos 
distintos a considerar: quando a variância da população é conhecida e quando ela é desconhecida. 
A seguir, temos os dois casos. 


4 Variância Conhecida 


Consideremos uma amostra aleatória simples X,,...,X, Obtida de uma população com distribuição 


normal, com média u e variância o? conhecida. Desta forma, a distribuição amostral da média 
2 
também é Normal com média u e variância — , OU Seja: 


Assim, temos que a variável Z tem distribuição normal padronizada. 


Os valores mais comuns para a variável Z são: 
Z906= 1,64 a Z946= 1,88 ci Z9sy= 1,96 = Z9gwy= 2,33 ho Z996= 2,58 


Com isso, o intervalo de confiança da média é dado por: 


IC(u1— a) =(X- Zapa 55X + Zapa =) 


Exemplo: 


O projetista de uma indústria tomou uma amostra de 36 funcionários para verificar o tempo médio 
gasto para montar um determinado brinquedo. Lembrando que foi verificado que x =19,9 e o = 
5,73, construir um intervalo de confiança de nível 95% para q. 


Solução: 
Na tabela da distribuição normal padronizada, obtemos que Z9025 = 1,96. 
Substituindo x = 19,9,n = 36,0 =5,73 e Zoo025 = 1,96 na fórmula para o intervalo de confiança, 
temos 
73 


5,73 5, 
199-1,96—=— <u <19,9+1,96-—— 
v36 á v36 
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e, portanto, 
IC(u,0,95) = (18,02;21,77) 


Uma das principais interpretações do intervalo de confiança consiste em avaliar a incerteza que 
temos a respeito de estimarmos o parâmetro populacional yu a partir de uma amostra aleatória de 
tamanho n. 


A raiz quadrada do fator abaixo é utilizada para correção do intervalo de confiança quando a 
população é finita, isto é, quando se conhece a população M. 


+ Variância Desconhecida: 


Tendo os conceitos básicos sobre intervalos de confiança, vamos agora tratar uma situação mais 
realista: quando a variância o? da população é desconhecida. 


Consideremos uma amostra aleatória simples X,,X,,..., X,, Obtida de uma população 
com distribuição normal, com média u e variância o? desconhecidas. Como neste caso a variância é 
desconhecida, utilizaremos a variância amostral S2 no lugar de 02. Assim, temos que: 


— Xu 
T= mota 


Isto representa que a variável Ttem distribuição t de Student com n- 1 graus de liberdade. 


Analogamente ao caso anterior, obtemos que 


X-u 
P( tn Get =1-a 
(nam Sora E Hana?) 


Exemplo-1: 


Consideremos que o projetista de uma indústria tomou uma amostra de 36 funcionários para 
verificar o tempo médio gasto para montar um determinado brinquedo. Os tempos estão colocados 
na Tabela a seguir. Dado que o projetista não tem conhecimento da variabilidade da população, 
construir um intervalo de confiança com (1 — «) = 0,95 para a média q. 


Tabela de dados 


17,1000 | 16,8930 | 14,6004 | 13,0053 


29,6292 | 19,2500 | 17,7504 | 24,6337 


29,3567 | 25,0798 | 16,7914 | 29,4087 


23,8807 | 15,2133 | 19,1536 | 30,3199 


130050 | 24,6795 | 293308 | 20,7309 


16,4541 26,2017 | 21,7857 | 19,7393 


246042 | 18,6442 | 21,2594 | 26,9123 


16,9896 | 32,8977 | 21,3627 | 15,4958 


183113 | 23,6931 19,5429 | 16,3855 
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A partir da análise do conjunto de dados temos que x = 21,39 e s = 5,38 Substituindo esses valores 
na fórmula do intervalo de confiança temos que 


Solução: 


, , 


21,39 — 2,03 <u<21,39+2,03 
v36 ú v36 


Portanto, 
IC(u,0,95) = (19,56;23,21) 


Exemplo-2: 


Foram realizados testes glicêmicos em 25 pacientes após um jejum de 8 horas. Os resultados são 
apresentados na tabela abaixo. Encontrar um intervalo de confiança de nível 95% para a média u. 


Teste glicêmico (mg/dL) 
80 MIS OO! 90 83 
117º 95 84 102 | 80 


WNZ | do OB || GR 


77 | 88 73/1404 | 88 


1382 | 91 | 108 | 140 | 101 


Solução: 


Inicialmente, calculamos a média amostral X e o desvio padrão amostral s, que são dados por: 


X = SIE, % = 97, 64 S= = Te = x)? = 17, 92. 


Como a confiança é de 95%, segue to,025,24 = 2,06 e então, substituindo esses valores na fórmula do 
intervalo de confiança, temos que 


IG = 0,95) = [97 64 x0g e e 97,64 +2 ed = [90,28; 105] 
= u, , — , , 75 , , , 75 = , , . 
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Tabela-2: - Distribuição Normal Padrão 


Distribuição Normal Padrão 
Z = NO, 1) 
Corpo da tabela dá a probabilidade p, tal que p= P(0<Z<Z) 


Segunda decimal de Z, 


02392 
06356 
10257 
14058 
17724 
21226 
24537 
27637 
30511 
33147 
35543 
37698 
39617 
41309 
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Tabela 3 — Tabela t Student 


colares 0,25 | 0,10 | 0,05 0,025 


“Bilateral | 0,50 0,10 


0,05 


0,005 


—e em rem 


0,01 


a | 
Cc | 050 | 0,80 0,90 0,95 0,98 | 0,99 
G.L | | | sa 
1º 1,000 | 3,078 6,314 | 12,706 | 31,821 | 63,657 
2 0,816 1,886 2,920 | 4,303 | 6,965 | 9,925 
3 0,765 1,638 | 2353 | 3,182 | 4,541 | 5,841 
4 0,741 1 1,533 “2132 [2,776 3,747 | 4,604 
| $$ 19727] 1,476 2015 | 2,571 | 3,365 | 4,032 
| “a É | 0,718 1,440. 1,943 | 2,447 | 3,143 | 3,707 
[= "Oi 1,415. 1,895 | 2,365 | 2,998 | 3,499 
8 0,706 | 1,397 | 1,860 | 2,306 | 2,896 
9 0,703 | 1,383 [1 833 | 2,262 3,250 
NO | 0,700 [1,372 1,812 | 2,228 | 2,764 | 3,169 
10697 [13697 1,796 | 2,201 | 2,718 | 3,106 
[+ 12- | 0,695: 1,782 27 2,681 | 3,055 
13 | 0,694 [1,350 1,771 2,160 | 2650 | 3,012 
0,692 | 1,345 1,761] 2,145 | 2624 | 2,977 
15 0,691 1,341 1,753 2,131 | 2,602 | 2,947 
16 0,690 1,337 1,746 2,120 | 2,583 2,921 
17 | 0,689 | | EKEE [ 1,740. 2,110 | 2,567 | 2,898 
18 | 0,688 1,330. 1,734 | 2,101 | 2,552 | 2,878 
19 0,688 1,328 1,729 2,093 2,539 2,861 
20 0,687 1,325 1,725 | 2,086 | 2,528 | 2,845 
MA 0,686 1,323 1,721 2,080 | 2,518 | 2,831 
22 0,686 1,321 1,717 | 2074 | 2,508 | 2,819 
| 3 0,685 1, Ra 714 | 2,069 | 2,500 | 2,807 
24 | 0,685 1,318 1 ud 
25 "0,684 1,316 1,708. 
26 0,684 | 1,315 | 1.706 
27 0,684 | 1,314 | 1703 | 2,052 
28 0,683 | 1,313 | 1,701 | 2,048 | 2,467 76 
0 29 | 0,683 / 1,311 1,699 | 2,045 
| o | 0,674 | 1,282 | 1,645 | 1,960 2326 [25767 
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EXERCÍCIOS PARA TREINAMENTO 
Questão 1 


Um dos principais produtos de uma indústria siderúrgica é a folha de flandres. Havia uma 
preocupação com a possibilidade de haver um número de folhas fora da faixa de especificação de 
dureza (LIE = 58,0 HR e LSE = 64,0 HR). A partir desta informação a empresa decidiu estimar a 
dureza média das folhas de flandres (u) coletando uma amostra aleatória de 49 folhas. 


Medidas de dureza (HR) das folhas-de-flandres fabricadas pela siderúrgica 


61,0 60,2 60,3 60,3 60,0 61,0 60,3 
60,0 60,0 60,9 61,0 61,2 59,2 60,9 
60,0 60,5 59,8 59,3 61,0 59,6 59,8 
59,6 60,1 58,0 59,8 58,9 57,6 58,0 
60,5 60,1 61,6 61,1 GOA 58,3 61,6 
59,5 59,0 60,3 58,7 59,6 54,2 60,3 
61,0 59 59,9 59,9 60,0 58,6 59,9 


Para um grau de confiança de 95%, determine a margem de erro (E) e o intervalo de confiança para 
média populacional (pu). 


a) [60,04; 60,38]HR 

b) [80,04; 60,38]HR 
[60,04; 100,38] HR 

[40,04; 60,38]HR 


nda 


Cc 


) 
0) 
) 


D 


Questão 2 


A altura dos alunos de uma academia apresenta uma distribuição aproximadamente normal. Para 
estimar a altura média dessa população, foi observada a altura de 30 alunos, obtendo-se x =175 cm 
e s=15 cm. Determine um intervalo de confiança de 99% para a média populacional. 


a) 187,95 <u<182,05 
b) 167,95 <u<182,05 
0) 167,95 <u< 192,05 
d) 467,95 <u<782,05 
e) 267,95 <u<782,05 


Questão 3 


Sabe-se que uma amostra possui 25 elementos, média 150 e desvio padrão igual a 10. Represente 
um intervalo de confiança em nível de 90%. 


a) 146,57; 153,42 
Db) 176,57; 193,42 
Cc) 126,57; 143,42 
d) 146,57; 253,42 
e) 156,57; 353,42 
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RESOLUÇÕES: 


Resposta Questão 1 


X = 60,21 
s=0,61 
n=49 


Grau de confiança de 95% implica em: 1 —- a = 95%, logo « = 5% = 0,05 e a/2 = 0,025. 
Z «/2 = Zo025 = 1,96 


0,61 = 
E = 196.55 = 0,1708 = 0,17 


Intervalo de confiança: 
x-E<u<x+E 


60,21 - 0,17 <u< 60,21 + 0,17 


Se fôssemos selecionar muitas amostras de 49 elementos da produção de folhas e construíssemos 
um intervalo de 95% de confiança para cada amostra, 95% desses intervalos conteriam a média 
populacional u 


[60,04 ; 60,38]HR 
Gabarito: LetraA. 


Resposta Questão 2 

Para encontrarmos o erro, utilizamos a fórmula: E = Zc = poisn>30€e0=&s 
C=99%, então Zc = 2,575 vide (Tabela 1) 

n=30 


s=15 cm 


15 
E =2,575.-—— = 7,05 
v30 


O intervalo de confiança é dado por: X- E <u<X+E 


175 - 7,05 <u< 175 + 7,05 
167,95 <u<182,05. 


Estatística Inferencial 


Portanto, com 99% de confiança, podemos dizer que a média populacional está entre 167,95 cm e 
182,05 cm. 


Gabarito:Letra B. 


Resposta Questão 3 


x +t 


so 


10 
150 + 1,7109-— 
v25 


150 + 3,4218 
P(146,5782 < x < 153,4218) = 0,90 
Gabarito: Letra A. 


2.3 INTERVALO DE CONFIANÇA PARA A PROPORÇÃO: 


Consideremos X avariável aleatória que representa a presença (ou não) de determinada 
característica de uma população. Assim, temos que Xtem distribuição de Bernoulli com 
parâmetro P, no qual Prepresenta a probabilidade de um determinado elemento da amostra ter a 
característica de interesse. Retiramos uma amostra aleatória X,,...,X, desta população. Cada 
Xpi =1,...,n tem distribuição de Bernoulli com parâmetro 2, isto é, 


X X5,.--,Xn—Bernoulli(p) 
com média u = p e variância o? = p(1— p) 


Neste caso, o estimador de máxima verossimilhança(f) para o parâmetro populacional p é dado 
por: 
- Nordm; de elementos da amostra com a característica Ji x; 


e SSSSssss. =% 
d Total de elementos da amostra n 


Utilizaremos três métodos diferentes para encontrar o intervalo de confiança para a proporção: 
Aproximação Normal, Aproximação Normal com Correção de Continuidade e Binomial Exata. 


2.3.1 APROXIMAÇÃO NORMAL: 


Vejamos como construir intervalos de confiança para a proporção p, utilizando a aproximação 
Normal. Consideremos À a proporção amostral. Pelo Teorema Central do Limite temos que para um 
tamanho de amostra grande, podemos considerar a proporção amostral À como tendo 
aproximadamente distribuição normal com média p e variância p(1-p)/n. Partindo-se destas 


premissas pode-se afirmar que 
p(L—p) 
np) 
p p E” 
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Observamos que a variância de ? depende do parâmetro desconhecido P. No entanto, pelo fato de 
n ser grande, podemos substituir P por 9 Com isso temos que: 


== sNt0d). 
B(1—6) 
n 


Considerando o mesmo procedimento de montagem do intervalo para a média, construímos o 
intervalo com 100(1 — «)% de confiança para a proporção 0: 


SEE E 
ici = a) =[p-2e PED ps 2, PED 
2 


Numa amostra aleatória de tamanho n=700 foram encontrados 68 elementos defeituosos. Achar um 
intervalo de confiança de nível 95% para a proporção p de defeituosos. 


Exemplo-1: 


Temos que 9 = 68/700 = 0,0971. Para a = 0,05, temos pela tabela da distribuição normal que 
Z0,025 = 1,96. Então, o intervalo de confiança é dado por 


0,0971(0,9028) 0,0971(0.9028) 
dogr=100 1 Copa + 


= (0,0752;0,119). 
700 700 ( ) 


2.3.2 APROXIMAÇÃO NORMAL COM CORREÇÃO DE CONTINUIDADE 


Uma outra maneira de obtermos um intervalo de confiança para proporção é através da 
aproximação normal com correção de continuidade. Considerando o processo anterior, a única 
diferença é que aqui não consideraremos simplesmente a proporção amostral 9, mas sim uma 
correção dela. Assim, para determinar o intervalo de confiança consideramos uma modificação da 
proporção p, dada por: 


il 
D+ — p < 0,5 
Pra 


> 
H 


1 
P — 2 S* P>0,5 
Assim, o intervalo de confiança para proporção p À com correção de continuidade, é dado por 


' E 4 2 Be — Po) 
IC(p, 1-0) = P— Zap E Do + Zap2 a 


O fator de continuidade é utilizado para melhorar a aproximação de uma variável aleatória 
discreta P pela distribuição normal que é contínua. 
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Consideremos novamente o Exemplo-1. Vamos agora encontrar o intervalo de confiança com 
correção de continuidade. 


Temos que à = 68/700 = 0.0971. Assim, À < 0,5. Então À, = 0,0971 + 1/1400 = 0,0978. Para 
«=0,05, temos pela tabela da distribuição normal que Z9025=1,96. Então o intervalo de confiança é 
dado por: 


Exemplo-2: 


0,0978(1 — 0,0978) 


0,0978(1 — 0.0978) 
IC(p,0,95) = | 0,0978 — 1,96 DO tdi did raid 


;0,0978 + 1,96 
ei | 700 


1C(p,0,95) = (0,07579;0,1198) 


2.4 INTERVALO DE CONFIANÇA PARA A VARIÂNCIA: 


Consideremos uma amostra aleatória X,, ...,X, de tamanho n de uma população com distribuição 
normal com média u e variância o2. Um estimador para o? é a variância amostral s2. Assim, 
sabemos que a quantidade pivô é: 


me a 


- X24 
o? e 


Q 


Seja 1 — o a probabilidade da variável Q, com n - Z graus de liberdade, tomar valores entre Qu,> 
eQ1- «/2, Valores obtidos na tabela da distribuição qui-quadrado tais que 


P[Q < Qup2] =PIQ > Qua] = 0º/2. 


Figura 3 — Distribuição Qui-Quadrado 


Observando a equação 
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Qup» < Q < Qi-a/2 


vemos que podemos substituir Q pela expressão acima e então obtemos 


(n — 1)s? 
SA 


Qup2 < g 


E Qi-a/2 


Reescrevendo esta desigualdade, obtemos o intervalo de confiança para a variância, 


n— 1)s? n— 1)s? 
( ) = ( ) 
Qu-ap2 Quiz 
Assim, 


(n — 1)s? (n — A) 
P([>— co< OO j=1- 
Qu-a/2 di Qu Ná 


Logo, o intervalo com nível 100(1 — «)% de confiança para o? será dado por 


(n— 1)s? (n— =) 


IC(02,1- a) = ( ; 
Q1-a/? Qup2 


Exemplo-3: 


O peso de componentes mecânicos produzidos por uma determinada empresa é uma variável 
aleatória que se supõe ter distribuição normal. Pretende-se estudar a variabilidade do peso dos 
referidos componentes. Para isso, uma amostra de tamanho 11 foi obtida, cujos valores em grama 


são: 


98 97 102 100 98 101 102 105 95 102 100 


Construa um intervalo de confiança para a variância do peso, com um grau de confiança igual a 


95%. 


Temos que n = 11,x = 100 e, 


E (1 —X) 44+9+:--+254+4+0 
fio 


10 


1 


i=1 


Pela Tabela da distribuição qui-quadrado com 10 graus de liberdade, temos que Q6,025 = 3,25 


€eQ0,75 = 20,48. Assim, 


10.8 10.8 


IC(92,1- = (553 
(o “) = 50,48" 3,25 


) = (3,90;24,61) 
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2.5 INTERVALO DE CONFIANÇA PARA A RAZÃO ENTRE DUAS VARIÂNCIAS: 


Vejamos como construir um intervalo de confiança para a razão entre 
duas variâncias de populações normais independentes. Para isso retiramos uma amostra aleatória 
m . . . = 2 m 
X1, X2, -.,Xn, da população 1, com distribuição N(u,,oj), e uma amostra Y,,Y,,...,Y,, da população 2, 
com distribuição N(u,, 02). Como 


o (mM = 1) 2 2 . . 
Q,=——5"—Ss1-X4,— 1 (Qui — quadrado comn; — 1 graus de liberdade) 
G 
Ju (n> 1) 2 2 . . 
Q, = a A “Ka, — 1º (Qui — quadrado comn, — 1 graus de liberdade) 


em que s2 é a variância amostral da população 1 e sZ a variância amostral da população 2. Neste 
caso, a expressão de F é definida por 


Qy sa di 

F= N, —1 = [ont E S4 03 
ni AD 2 
2 S2 SG 


tem distribuição F (Fisher-Snedecor) de com n, — 1 graus de liberdade no numerador e n, — 1 graus 
de liberdade no denominador e denotamos por Fm, 4;n,-1)- 


Consideremos que a probabilidade da variável Ftomar valores entre Fo, 1.n,-1) € 
a ta 


e PE ais is= é 1 — 0. Esses valores são obtidos na Tabela da distribuição de Fisher-Snedecor 
= : 
referente ao valor de « e aos graus de liberdade do numerador e do denominador, 


mn — 1en,-—/1, respectivamente. Veja a figura a seguir. 


Figura-4: Distribuição F 


Observando a equação 


For <F<Fa-s/2) 


vemos que podemos substituir F pela expressão acima e assim temos: 
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pelo 
a/2 s2 02 (1-0/2) 


Reescrevendo esta equação obtemos: 


E LS 


Fa-oyS; O; FopS5 


Assim, 
2 2 2 
Los o Isil. L= 
F s2"g2 "Fes? |]. á 
(1 5) 2 2 2 
Sipsanve que Fa-aprm-in -1) =——+— — ú Feafan-im =) = A 
(a/2, no-1,n4 -1) (1-a/2, n2-1,n4 -1) 


Logo, o intervalo de confiança com nível 100(1 — «)% para a razão entre duas variâncias será dado 
por 


a O, 
IC(02/02,1- 0) = (rs 
GER Fei-a/o)S3 FrojayS5 
2.6 INTERVALO DE CONFIANÇA PARA A DIFERENÇA DE MÉDIAS: 
2.6.1 VARIÂNCIAS CONHECIDAS: 


Consideremos duas amostras aleatórias, A, Xp, ...,Xn, de tamanho m e h, Y5, ..., Yn, de tamanho 


n>, ambas com distribuição normal, médias uy e , e variâncias a e o2, respectivamente. Assim, 


a Média Amostral é aproximadamente Normal. 
a a) Ag ( É) 
X N (us, É eyY-N Hz 


Daí, temos que, 


o que implica em 


X-Y) — (uy — 
Z= E-PD-Qon) vos) 
> a? 
as 
mm 
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Consideremos que a probabilidade da variável Ztomar valores entre —Z,,, €eZapp 61 —a. 
Observando a equação 


= EZ ET 


vemos que podemos substituir Zpela expressão acima e assim obtemos 


= Y — (My — Ha) 
—Za/2 s É Za)? 
o A 
Mm Ng 


Reescrevendo esta desigualdade, obtemos o intervalo de confiança para a diferença das médias 
dy — dz 


= a o? o2 
IC —-usl-0)=|(X-7) -Ze| [D+ 
2 


2 AVovV 
dE (X-Y)+2Z 


e podemos afirmar que se pudéssemos construir uma quantidade grande de intervalos IC(u, — 
u2,/1— a), todos baseados em amostras de tamanho n, e n,, em torno de 100(1 — «)% deles 
conteriam o valor verdadeiro da média populacional. 


2.6.2 VARIÂNCIAS DESCONHECIDAS - PORÉM IGUAIS: 


Considerando agora duas amostras aleatórias, X,, X,, ..., Xn,de tamanho n, e Y,,Y;,..., Y,, de tamanho 
n>, Com apenas uma diferença do caso anterior: as variâncias são desconhecidas, porém iguais. 
Isto é, o2 = 02 = 02. Como 


st -X2 e (n2—1)s2 e: 


o N4-1 g2 n2-1 


onde s? é a variância amostral da população 1 e sZ é a variância amostral da população 2, temos 
que: 


 M=1)- Quo 


Tr -2 
Ss 1 Ni+na 
Planta 
Onde: 
Gs (ny — sf + (no — 1)s$ 


m+n,9—2 
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Daí, utilizando a tabela da distribuição t de Studentcom a=n,+n,-—2 graus de liberdade, 
obtemos o valor de tça «/2) de forma que 


(X — 7) — (uy — up) 
1 1 
Sp mn; 


—Uaa/2) < < Laa/2) 


Reescrevendo esta desigualdade, obtemos o intervalo de confiança para a diferença das médias 
4 — Ha quando as variâncias são desconhecidas, porém iguais, 


= Es 1 1 = 1 1 
(X—Y)— ta,a/2)Sp e <(X-Y)+ ta,a/2)Sp 6 


ou 


insmmedel CE Gas E SE dai A 
je dE (5) "du no! (3)? lm no 


e podemos afirmar que se pudéssemos construir uma grande quantidade de intervalos Tel — 
Upl-o), todos baseados em amostras de tamanho n, e n, em torno de 100(1 — «)% deles 
conteriam a verdadeira diferença das médias populacionais. 


2.6.3 VARIÂNCIAS DESCONHECIDAS E DIFERENTES: 


Consideremos duas amostras aleatórias, X1, X,..., Xn, de tamanho n, e Y,%Y,,...,Yn, de tamanho ny, 
com distribuições normais, mas agora com variâncias desconhecidas e diferentes, isto é, o? £ o2. 
Como as variâncias populacionais são desconhecidas, usaremos as variâncias amostrais s? e s? em 
seus lugares. Considerando a variável T tal que 


Ferias 
mall ) (um Ho) 
Si, S2 
Mm Ng 


ou seja, a variável T dada pela equação acima tem distribuição t de Student com v graus de 
liberdade, onde 
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Fazendo uma construção análoga a do caso anterior, obtemos o intervalo de confiança para a 
diferença de duas médias com variâncias desconhecidas e desiguais: 


IC(m—- uz, 1—-0)= (X—Y) — Hu) 


= 
m 


Exemplo-4: 


Os dados a seguir correspondem a teores de um elemento indicador da qualidade de um certo 
produto. Foram coletadas 2 amostras referentes a 2 métodos de produção. Construa um intervalo de 
confiança para a diferença das médias dos dois métodos. 


Método1 09 25 92 32 37 1,3 1,2 24 36 883 


Miro | 38 | (BS | 55 | So | Sil | 27 | 2lo | liso [Si | SS 


A média referente ao método 1 é X, = 3,63 e do método 2 é X, = 3,96. Calculando as variâncias 
amostrais, obtemos: 


10 10 


Ja — X 2 Xi — X & 
p=) Cut. g,29 3 = 3 Guto o 


i=1 i=1 


em que x,; são os teores referentes ao método 1 e x,; ao método 2, i = 1,...,10. Os graus de 
liberdade são dados por: 


E29 , 253 : 
v=— 10 10" 44 028 


2 2 
Go) , Go) 


= += 


9 


Assim, da Tabela da distribuição t de Student obtemos que t;40,025 = 2; 145 e, então, temos que: 


IC i =| (3,63-3,96)(-2,145 DOS aa 3,96)(2, 145 aa 
(m-—-us,l-a)=| (3,63-3,96)(—2, ETR ETA ,96)(2,145) TO TO 


ou seja, IC(u, —Us,)1—- 4) = (2,56; 1,90). 
RE 
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EXERCÍCIOS PARA TREINAMENTO 


a. Considere uma amostra aleatória n=25 que possui uma média amostral de 51,3 e um desvio 
padrão populacional de o=2. Construa o intervalo com 95% de confiança para a média populacional 


u. 
b. Sabe-se que a vida em horas de um bulbo de lâmpada de 75 W é distribuída de forma 


aproximadamente normal com desvio padrão de 0=25. Uma amostra aleatória de 20 bulbos tem 
uma vida média de 1.014 horas. Construa um intervalo de confiança de 95% para a vida média. 


C. Qual deve ser o tamanho da amostra para que o intervalo com 99,5% de confiança para a 
média populacional tenha uma semi amplitude não superior a 1,5? Sabe-se que a variância 
populacional é de 28. 


d. Calcular o intervalo de confiança de 95% para a seguinte amostra, com variância 
populacional desconhecida: 


19,8 18,5 17,6 16,7 15,8 15,4 14,1 13,6 11,9 11,4 11,4 8,8 7,5 15,4 15,4 19,5 14,9 12,7 11,9 11,4 10,1 
Ra 


e. Uma marca particular de margarina diet foi analisada para determinar o nível em 
porcentagem de ácidos graxos insaturados. Uma amostra de seis pacotes resultou nos seguintes 
dados: 16,8; 17,2; 17,4; 16,9; 16,5 e 17,1. Encontre o intervalo de confiança de 99% para a amostra. 


f. Uma amostra piloto com 12 elementos traça uma média de 6,7 e desvio padrão de 1,7. Qual 
deve ser o tamanho da amostra para que a semi amplitude do intervalo de 99,5% de confiança da 
média populacional não seja superior a 0,8? 


g. O conteúdo de açúcar na calda de pêssegos em lata é normalmente distribuído. É extraída 
uma amostra de n=10 latas que resulta em um desvio padrão amostral de s=4,8. Encontre o 
intervalo de confiança para de 95% para a variância populacional 02. 


h. Se uma amostra de tamanho n=20, a média e o desvio padrão são X=1,25 e s=0,25, 
respectivamente. Construa um intervalo de confiança de 99% para o 2. 


Í. Em uma amostra aleatória de 85 mancais de eixos de manivelas de motores de automóveis, 
10 têm um acabamento superficial mais rugoso do que as especificações permitidas. Calcule um 
intervalo de confiança para o 95% da proporção. 


j. De 1.000 casos selecionados de aleatoriamente de câncer de pulmão, 823 resultaram em 
morte. Construa um intervalo de confiança de 95% para a taxa de morte de câncer de pulmão. 


GABARITO: 

1. LC.=51,3+0,78 

2. LC. = 1014 +11 

ep 2,81:48hn< 1,5 >n = 80,85 = 81 elementos 
4. LC.=13,71+ 1,57 

5. LC. = 16,98 + 0,53 

6. = 56 elementos. 

7. = [10,9; 76,8] 

8. = [0,03; 0,17] 

9. [0,05; 0,19] 


do, 
o 


[0,799; 0,847] 
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Teste de Hipóteses 


3.1 TESTE DE HIPOTESES 


Teste de Hipóteses é um procedimento que permite tomar uma decisão (aceitar ou rejeitar a 
hipótese nula ) entre duas ou mais hipóteses (hipótese nula ou hipótese alternativa ), utilizando os 
dados observados de um determinado experimento. Há diversos métodos para realizar o teste de 
hipóteses, dos quais se destacam o método de Fisher (teste de significância), o método de 
Neyman-Pearson e o método de Bayes. 


São dois os tipos de erros que podemos cometer na realização de um teste de hipóteses: 
1. Rejeitar a hipótese Ho, quando ela é verdadeira. 
2: Não rejeitar a hipótese Ho, quando ela é falsa. 


A Tabela a seguir resume as situações acima. 


Tabela 4: Tipos de Erros 
Aceitar Ho Rejeitar Ho 
Ho Verdadeira Decisão Correta Erro Tipo | 


Ho Falsa Erro Tipo Il Decisão Correta 


Se a hipótese Ho for verdadeira e não rejeitada ou falsa e rejeitada, a decisão estará correta. No 
entanto, se a hipótese Ho, for rejeitada sendo verdadeira ou se não for rejeitada sendo falsa, a 
decisão estará errada. O primeiro destes erros é chamado de Erro do Tipo | e a probabilidade de 
cometê-lo é denotada pela letra grega a (alfa); o segundo é chamado de Erro do Tipo le a 
probabilidade de cometê-lo é denotada pela letra grega £ (beta). Assim temos, 


a = P(Erro do tipo 1) = P(rejeitar H, dado H, verdadeira); 
6 = P(Erro do tipo IN) = P(aceitar H, dado H, falsa); 


Considere um teste unilateral dado pelas hipóteses: 


o u= ão 
H=u<hHo 


Neste caso, a região de rejeição é determinada por 4X < Xç) e a interpretação dos erros pode ser 
vista como: 


a =P(X<Xc)lu = to 
B=P(X>Xc)lu<kto 
A situação ideal é aquela em que ambas as probabilidades, «e £, são próximas de zero. No 


entanto, é fácil ver que a medida que diminuímos «, 6 aumenta. A Figura a seguir apresenta esta 
relação. 
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Figura-5: Testes de Hipótese. 


B: Erro do tipo Il 


a: Erro do tipo 1 


Rejeito Hg Não rejeito Ho 
Ho 


Para um teste de hipóteses do tipo acima, onde estamos interessados em testar a média de uma 
população, utilizamos a expressão 


que é a estatística do teste de hipóteses. A partir do Teorema Central do Limite, sabemos que, 
desde que tenhamos um tamanho amostral suficientemente grande, esta estatística tem distribuição 
normal padrão, isto é, 


Z-N(0,1) 


A partir dos valores de Ze da especificação do erro cometido, podemos definir a região crítica do 
teste. 


Vamos considerar que o erro mais importante a ser evitado seja o Erro do Tipo |. A probabilidade de 
ocorrer o erro do tipo | o é denominada nível de significância do teste. O complementar do nível de 
significância (1 — a) é denominado nível de confiança. Supondo que o nível de significância a seja 
conhecido, temos condições de determinar o(s) valor(es) crítico(s). Se considerarmos o teste 
bilateral 

E :Uu=Ho 

H=uU*to 
a figura a seguir representa a região de rejeição para um valor fixo de «. 
Figura-6: Teste Bilateral. 


Região crítica: teste bilateral 


Não rejeito Hy 


Rejeito Ho 


Rejeito Ho 
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Se considerarmos o teste unilateral à direita 


a U=hHo 
H=u>t 


a região crítica é representada segundo a figura abaixo. 


Figura-7: Teste Unilateral à Direita. 


Região crítica: teste unilateral à direita 


Não rejeito H, 


Rejeito Hg 


E, se considerarmos o teste unilateral à esquerda 


o u=hto 
H=u<ht 


a região crítica é representada segundo a figura abaixo. 


Figura-8: Teste Unilateral à Esquerda. 


Região crítica: teste unilateral à esquerda 


Não rejeito H, 
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Os valores —Z, e Z, nas duas últimas figuras são tais que as áreas à esquerda e à direita, 
respectivamente, sob a curva Normal padrão, valem «. Agora, Os valores —Z4/> € Za/2 Na primeira 


figura, são tais que as áreas à esquerda e à direita, respectivamente, sob a curva Normal padrão, 
valem a/2 


Como foi dito inicialmente, o objetivo do teste de hipótese é determinar, através de uma estatística, 
se a hipótese nula é aceitável ou não. Essa decisão é tomada considerando a região de rejeição ou 
região crítica (RC). Caso o valor observado da estatística pertença à região de rejeição, 
rejeitamosH,; caso contrário, não rejeitamos Ho. Analogamente, definimos a região de aceitação 
(complementar da região de rejeição): caso o valor observado pertença à região de aceitação, não 
rejeitamos Ho; se não pertencer, rejeitamos. 


Se o nível de significância é 0,05, os valores críticos são —1,645 ou 1,645 para as alternativas 
unilaterais e—1,96e 1,96 para a alternativa bilateral; se o nível de significância é 0,01, os valores 
críticos são —2,33 ou2,33 para as alternativas unilaterais e —2,575 e 2,575 para a alternativa 
bilateral (valores obtidos na Tabela da distribuição normal). A tabela a seguir apresenta alguns 
critérios para o teste de hipótese. 


Tabela 5: Tipos de Hipóteses 


Hipótese Alternativa Rejeita Ho se Aceita Ho se 
u<uo Z<-Zy Z>-Zy 
u> uo Z>2Zy Z<2Zy 
u*uo Z<-Zap OU Z > Zgy2 Zap SZS Zap 

Exemplo-5 


Um supervisor da qualidade quer testar, com base numa amostra aleatória de tamanho n = 35 e 
para um nível de significância a = 0,05, se a profundidade média de um furo numa determinada 


peça é 72,4mm. O que podemos dizer se ele obteve X = 73,2mm e se sabe, de informações 
anteriores, que o = 2,1 mm? 


1. Primeiro vamos estabelecer as hipóteses: 


a u=72,4 
H, =Uu A 72,4 


2. Como a = 0,05, temos que Z5,2 = Zo,025 = 1,96. 


3. Critério: rejeitar Ho se Zops < —1,96 OU Se Zops > 1,96 em que 


Zobs = 5 
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5. Conclusão: Como Z,ps = 2,25 > 1,96, a hipótese nula deve ser rejeitada. Em outras palavras, não 
podemos assumir que a média populacional u seja igual a 72,4, isto é, a diferença entre 73,2 e 72,4 
é significativa. Veja a figura abaixo 


Figura-9: Teste Bilateral 


Região de aceitação 
0,95 


P-valor 


O p-valor, também denominado nível descritivo do teste, é a probabilidade de que a estatística do 
teste (como variável aleatória) tenha valor extremo em relação ao valor observado (estatística) 
quando a hipótese H, é verdadeira. 


Para exemplificar a definição de p-valor, considere um teste de hipóteses para a média no qual o 
valor da estatística é dado por Zops, ver Exemplo-5. As figuras a seguir representam, 
respectivamente, o p-valor nos casos em que temos um teste de hipóteses bilateral com rejeição da 
hipótese nula e sem rejeição da hipótese nula. 


Figura-10: p Valor 


A seguir, temos a figura de um teste de hipóteses unilateral para média. Na primeira das figuras, 
rejeitamos a hipótese nula e na segunda não rejeitamos. 
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Figura-11: Teste de Hipóteses Unilateral para média 


Observe que se o p-valor é menor que o nível de significância proposto a. Então, Z,ps está na região 
crítica e, portanto, rejeitamos a hipótese nula Ho. Por outro lado, se o p-valor é maior que o nível de 
significância, não rejeitamos a hipótese nula (ver figura acima). Além disso, quanto menor for o p- 
valor, mais "distante" estamos da hipótese nula Ho. Portanto, o p-valor tem mais informações sobre a 
evidência contra H, e, assim, o experimentador tem mais informações para decidir sobre Hoy com o 
nível de significância apropriado. 


Também podemos interpretar o p-valor como o menor valor do nível de significância para o qual 
rejeitamos Ho. Desta forma, se o nível de significância (a) proposto para o teste for menor que o p- 
valor, não rejeitamos a hipótese Ho. 


Em muitas situações, a região de rejeição de um teste de hipótese com nível de 
significância apresenta seguinte forma: 


Rejeitamos H, se e somente se W(X) > cg, 


em que W(X) é a estatística do teste apropriada para o problema e a constante c, é escolhida de 
modo que o teste tenha nível de significância «. Neste caso, o p-valor para o ponto amostral x 
é definido matematicamente como 


p(x) = sup POIW(X) > W()] 
0€06 


em que 6 é um parâmetro pertencente ao espaço paramétrico 8 sob a hipótese nula (Ho). 


Voltando ao Exemplo-5, vamos calcular o p-valor do teste de médias. No decorrer deste módulo 
calculamos o p-valor para todos os testes estatísticos clássicos. 


Neste caso, como temos um teste bilateral, segue que o p-valor é dado por 


P- valor = P[Z >|Z,ps| + PIZ < —|Zopsl] = PIZ > 2,25] + P[Z < —2.25] = 0,0122 = 0,0244 


Estatística Inferencial 


Figura-12: Gráfico do P-Valor 


Região de aceitação 
0,95 


PIZ <-2.25] 


Portanto, podemos concluir que, para qualquer nível de significância maior que 0,0244, temos 
evidências para rejeitar a hipótese nula. 


Análise do p-valor 


Consideremos um teste de hipóteses no qual R, é a região de rejeição com nível de significância a. 
Suponha que, para diferentes valores de «, essas regiões podem ser encaixadas no sentido que 


Rr E Rj para qualquera <a. (5.1.2.1) 


Sob essa situação, além de conseguirmos saber se a hipótese é rejeitada ou não, conseguimos 
ainda determinar o p-valor, que aqui é definido por 


p=p(X)=infla:X ER 


no qual Xrepresenta a amostra. 


O p-valor nos fornece uma ideia de quanto os dados contradizem a hipótese nula. Além disso, ele 
permite que diferentes experimentadores utilizem seus respectivos níveis de significância para 
avaliar os resultados do teste de hipóteses. 


Exemplo-6: 


Considere uma amostra de tamanho um de uma população X com distribuição N(u,0?), com 0? 
conhecido. Consideremos sob H,,u = 0, e sob H,,u = 4, para algum y >0. Seja & a função de 
distribuição acumulada da normal padrão e 2, q o quantil 1-a da distribuição normal padrão. 
Então, a região de rejeição pode ser denotada como 


[0] 


Re=(X:X>on a) = [Xº o(c)>1-a)=[x: 1-0(5) <a] 


Dessa maneira, para um valor observado de X dado, o ínfimo sobre todos a em que a última 
desigualdade se mantém é 
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p= 1-0(5 


Alternativamente, podemos escrever que o p-valor é P,[X > x], em que xé o valor observado de X. 
Notemos ainda que sob a hipótese nula, u = 0, a distribuição de p é dada da seguinte maneira 


Polp<u]=Po[1-9(5) <u)=Po[e(5)=1-u]=u 


pois P(X/0) é uniformemente distribuído sobre (0,1), portanto p é uniformemente distribuído em 
(0,1). Esse resultado segue da transformação integral de probabilidade (probability integral 
transformation), que garante que: 


Se Xtem uma função de distribuição contínua F, então F(X) é uniformemente distribuído sobre (0,1). 
O Lema a seguir traz uma propriedade geral do p-valor. 
Lema: 


Suponhamos que X tem distribuição de probabilidade P,, para algum 6 e O. Consideremos 0 E 0,, 
em que O, representa o espaço paramétrico sob a hipótese nula Hoy. Assumimos ainda que as 
regiões de rejeição satisfazem (5.1.2.1) 


i) Se 
sup POlX E REl<a paratodoO<a<h1, (5.1.2.2) 
0€e0, 


então a distribuição de P sobre 6 E O, satisfaz 


Polp<ul<u paratodoO<u<1. 


Prova: 
Se 8 E 09, pela definição do p-valor, p = p(X) = inffa: X E R4) e, temos que, para todo 


v>ulp<ulc[Xe//],o que implica em Polp < u] < P,|X E R,] Assim, escrevendo 
lim Po lp <u]< lim Po[X ER] 
vou+ vou+ 


como (5.1.2.2) é válido, segue que P,lp < u] < u. 


ii) Se, para O E 0,, 
PolXeRg]=a paratodoO<a<1, (5.1.2.3) 


então 


Polp<u]=u paratodoO<u<1, 
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ou seja, p é uniformemente distribuído sobre (0,1). 
Prova: 


Novamente pela definição do p-valor, temos que se[X E R,] então [p < u]. Dessa forma, segue que 
Polp <u] > Po|X ER] 


Assim, por (5.1.2.3) temos que P,lp <u] > u. Do resultado obtido em (i), concluímos que Palp < 
u] >u, ou seja, p tem distribuição uniforme em (0,1). 


Passos para realização do teste de hipóteses 

+ Estabelecer as hipóteses; 

+ Determinar o nível de significância do teste (a); 
+ Determinar a região de rejeição; 

+ Calcular o p-valor 


A seguir, vamos aplicar os conceitos discutidos acima para tratar diversos exemplos de testes de 
hipóteses. 


3.2 TESTE DE HIPOTESES PARA A MÉDIA. 


Considere uma população da qual retiramos uma amostra X4, X5, ..., Xn. Estamos interessados em 
realizar inferência sobre a média populacional q. 


Se não conhecemos o valor do desvio padrão populacional q e a amostra é pequena, n < 30, 
devemos substituir a expressão 


X — do 
t=0 
vn 
pela expressão 
X-—Ho 
ad 
vn 


onde 7 tem distribuição t de Student com n — 1 graus de liberdade. Para facilitar a execução do 
teste, podemos seguir os passos: 


1. Estabelecer as hipóteses: 


Fixamos Ho:u = Lo. Dependendo da informação que fornece o problema que estamos estudando, a 
hipótese alternativa pode ter uma das três formas abaixo: 


+ H;:u + Lo (teste bilateral); 
+ Hu > uo (teste unilateral à direita); 


+ H,u< u (teste unilateral à esquerda). 


2. Fixar o nível de significância a. 
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+ Seo teste é bilateral, determinamos os pontos críticos —tw,2 € twy2 tais que 


3. Determinar a região crítica. 


+ P[T>tap]=PI[T<-—to/2] a partir da distribuição tde Student com n — 1 graus de liberdade. 


Figura-13: Teste Bilateral 


Região crítica: teste bilateral 


+ Seo teste é unilateral, determinamos o ponto crítico t, tal que PIT > ta] = a. 


Figura-14: Teste Unilateral à Direita. 


Região crítica: teste unilateral à direita 


4 Seo teste é unilateral à esquerda, determinamos o ponto —t, tal que PIT < —t;]=«a 
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Figura-15: Teste Unilateral à Esquerda. 


Região crítica: teste unilateral à esquerda 


onde 

+ X: valor da média amostral. 

+ uo: valor da média populacional sob a hipótese nula. 
+ s valor do desvio padrão amostral. 


+ n: tamanho da amostra. 


5. Critério: 


+ Teste bilateral: se Tops > ta/2 OU SE Tops > ta/2 OU SE Tops < —t- «72, Fejeitamos Ho. Caso contrário, 
não rejeitamos Ho. 


+ Teste unilateral à direita: se Tops > ty, fejeitamos Ho. Caso contrário, não rejeitamos Ho. 
+ Teste unilateral à esquerda: se Tops < —twy2» fejeitamos Ho. Caso contrário, não rejeitamos H,. 
6. O p-valor no teste bilateral é dado por 

p— valor = P[lt| > |TopsllHo = 2P[T > |Tobs || Ho] 


Se o teste é unilateral à direita, o p-valor é dado por 


p-— valor = P[T > TopslHo] 
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e, se o teste é unilateral à esquerda, o p-valor é dado por 
p- valor = P[T < TopslHo| 


7. Como vimos anteriormente o intervalo de confiança é dado por 


= Ss — s 
IC(u;1 — a) — (E tapar: + tapa 75) 


se o teste é bilateral. Se o teste é unilateral à direita, então o intervalo de confiança para o 
parâmetro H é dado por 


IC(u,1l— a) = (E — ta qai00) 


e, se o teste é unilateral à esquerda, então o intervalo de confiança para o parâmetro H é dado por 


IC(u, 1-0) = (-00;% +ta =) 


Exemplo-7: 


Uma firma está convertendo as máquinas que aluga para uma versão mais moderna. Até agora 
foram convertidas 40 máquinas. O tempo médio de conversão foi de 24 horas, com desvio padrão 
de 3 horas. 


a) Determine um intervalo de 98% de confiança para o tempo médio de conversão. 
R. [22,895; 25,105] 


b) O fabricante das novas máquinas afirma que a conversão em média dura no máximo 25 horas. 
Com base nas conversões feitas até o momento, e exigindo uma confiança de 99%, a afirmação do 
fabricante é verdadeira? R. Sim. Z = -2,1082 


3.3 TESTE DE HIPOTESES PARA A PROPORÇÃO. 
Pelo teorema central do limite, X terá distribuição aproximadamente normal, com média p e variância 


1- 
—— ou seja, 


Observamos que X é um estimador de máxima verossimilhança para p, a proporção populacional, e, 
desse modo, para n suficientemente grande podemos considerar a distribuição amostral de 


Ê = X como aproximadamente normal: 
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Z= E E nn) 
pl —p) 


n 


Daí, temos que 


Vejamos os passos para a construção do teste para proporção. 
1. Estabelecer as hipóteses 
E = Po Fa = Po a = Po 
H:pãpo Uh:p<po Uh:p>po 
se o teste é bilateral, unilateral à esquerda ou unilateral à direita, respectivamente. 
2. Fixar o nível de significância a. 
3. Determinar a região crítica. 


+ Seo teste é bilateral, determinamos os pontos —Z,,> e Zw 2 usando a tabela da distribuição 
normal, tais que P[Z > Zw/2] = P[IZ < —Zg,2] = «/2. 


Figura-16: Teste Bilateral. 


Região crítica: teste bilateral 


+ Seo teste é unilateral à direita, determinamos o ponto crítico Z, tal que P[IZ > Z,] = « . 


Figura-17: Teste Unilateral à Direita. 


Região crítica: teste unilateral à direita 
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+ Seo teste é unilateral à esquerda, determinamos o ponto crítico —Z, tal que P[Z < —Z,]=« 


Figura-18: Teste Unilateral à Esquerda. 


Região crítica: teste unilateral à esquerda 


4. Calcular, sob a hipótese nula, o valor 


= P — Po 


Zo ST FT —— 
“po -po/n 


5. Critério: 
+ Seo teste é bilateral e Zops > Zw/2 OU Zobs < —Zay2, Fejeitamos Ho. Caso contrário, não rejeitamos 
Ho. 


+ Seo teste é unilateral à direita e Zops > Zu, Fejeitamos Ho. Caso contrário, não rejeitamos Ho. 
+ Seo teste é unilateral à esquerda e Zops < —Z,, rejeitamos Ho. Caso contrário, não rejeitamos Ho. 
6. O p-valor é determinado por 
p — valor = P[|Z] > |Zops|lHo = 2PIZ > |Zops ||Ho] 
no teste bilateral. Se o teste é unilateral à direita, o p-valor é determinado por 
p — valor = P[Z| > |Zops|Ho] 
e, se o teste é unilateral à esquerda 


p — valor = P[Z < |Zops|Ho] 


7. Como foi visto anteriormente, o intervalo de confiança é dado por 
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Ic(p1-0)=|P-—Zap 


se o teste é bilateral. Observamos aqui que o limite inferior do intervalo de confiança não pode ser 
inferior a zero e o limite superior não deve ser superior a um, uma vez que estamos calculando o 
intervalo de confiança para uma proporção e não faz sentido considerar uma proporção negativa ou 
maior do que um neste caso. No caso em que o teste é unilateral à direita, o intervalo de confiança 
para o parâmetro p é dado por 


e, se o teste é unilateral à esquerda, o intervalo de confiança para o parâmetro p é dado por 


(1d 
Ic(p1i-a)=|0,0+2Z Cad 


Exemplo-8: 


Um fabricante garante que 90% das peças que fornece à linha de produção de uma determinada 
fábrica estão de acordo com as especificações exigidas. A análise de uma amostra de 200 peças 
revelou 25 defeituosas. A um nível de 5%, podemos dizer que é verdadeira a afirmação do 
fabricante? 


1. Estabelecemos as hipóteses 


Pa — 0,9 
Hp <0,9 


2. Fixemos o nível de significância a = 0,05. 
3. Como « = 0,05, —Z, = —1,64. 


4. Temos que 9 = 0,875 e, sob a hipótese nula, po = 0,9. Assim, 


0,875 — 0,9 
=D > ———. = —1,178 


dons (0,9)(0,1)/200 
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Figura-19: Região Crítica e Região de Aceitação. 


Região de aceitação 
0,95 


Região de rejeição 


-1,84-1,178 


5. Conclusão: como —1,64 = —Z, < Zops = — 1,178, não rejeitamos H,. Portanto, temos evidências de 
que a afirmação do fabricante é verdadeira. 


6. Vamos agora calcular o P-valor: 


P — valor = P[Z < ZopslHo] = PIZ < —1,178]H,] = 0,1192 


7. Como n = 200, À = 0,875, —Z, = —1,64, temos que o intervalo de confiança é 


0,875(1 — 0,875 
200 


0;0,875 + 1,64 = (0;0,9134) 


3.4 TESTE DE HIPOTESES PARA A VARIÂNCIA. 


Seja X,, X>,...,X, Uma amostra aleatória de tamanho n retirada de uma população normal N(u, 02). 
Suponha que desejamos testar uma hipótese sobre a variância o? desta população. Sabemos que a 
estatística 


(n — 1)s? 
g2 


Q = 


tem distribuição qui-quadrado com n — 1 graus de liberdade. Denotamos Q-K-): Para executar 
este tipo de teste, podemos seguir os passos: 


1. Estabelecer uma das hipóteses (bilateral, unilateral à direita ou unilateral à esquerda) 
Rae = a da ça o 


OBS: As hipóteses H, podem ser substituídas por 


Hr 2 Mo Sa Ho ro oubge Sa. 
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2. Fixar o nível de significância a. 


3. Determinar a região crítica. 
+ Seo teste é bilateral, devemos determinar os pontos críticos 0,2 € Qi-«y2 tais que 


+ PlQ<Q,p]=a/2ePIQ>Q,.0/2] = «/2 utilizando a tabela da distribuição qui-quadrado com 
n — 1 graus de liberdade. 


Figura-20: Teste Bilateral. 


Região crítica: teste bilateral 


+ Seo teste é unilateral à direita, devemos determinar o ponto crítico Q,.« tal que PIQ > Q,.q] = 
a. 


Figura-21: Teste Unilateral à Direita. 


Região crítica: teste unilateral à direita 


+ Seo teste é unilateral à esquerda, devemos determinar o ponto crítico Q, tal que PIQ < Q,] = «. 


Figura-22: Teste Unilateral à Esquerda. 
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Região crítica: teste unilateral à esquerda 


4. Calcular, sob a hipótese nula, o valor 


5. Critério: 


(a) Teste bilateral: Se Qops > Qu/2 OU SE Qobs < Qi-ay2, Fejeitamos Ho. Caso contrário, não 
rejeitamos Ho. 


(b) Teste unilateral à direita: se Qops > Q4-«,» rejeitamos Ho. Caso contrário, não rejeitamos Ho. 
(c) Teste unilateral à esquerda: se Qops < Q4, rejeitamos Ho. Caso contrário, não rejeitamos Ho. 


6. O p-valor é dado por 


p — valor = 2min(P[Q > QopslHol, PLQ < Qops|Ho]) 


no caso bilateral. 


No caso unilateral à direita, o p-valor é dado por 


p— valor = PIQ > QobslHo] 


e, no caso unilateral à esquerda, o p-valor é dado por 
p — valor = P[Q < Qobs|Ho] 


7. Como vimos na anteriormente, o intervalo de confiança para a variância populacional o? é dado 
por 


, 


IElos, 1-0)= (e) 


Qu-a/2 Qup2 


se o teste é bilateral. Se o teste é unilateral à direita, o intervalo de confiança é dado por 
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n— 1)s? 
IC(02,1—- 0) = ne o) 
Qi-a 
e se o teste é unilateral à esquerda, o intervalo de confiança é dado por 
n— 1)s? 
IC(02,1—- q) = (o “| 
Qu 


Exemplo-9: 


Uma máquina de preenchimento automático é utilizada para encher garrafas com detergente 
líquido. Uma amostra aleatória de 20 garrafas resulta em uma variância da amostra do volume de 
enchimento de s2nbsp; = 0,0153 onça fluída?. Se a variância do volume de enchimento exceder 
0,01 onças fluídas?, existirá uma proporção inaceitável de garrafas cujo enchimento não foi 
completo ou foi em demasia. Há evidência nos dados da amostra sugerindo que o fabricante tenha 
um problema com garrafas com falta ou excesso de detergente? Use « = 0,05 e considere que o 
volume de enchimentos tem distribuição normal. 


O parâmetro de interesse é a variância da população 
1. Primeiro vamos estabelecer as hipóteses: 
Ho = 001 
E o“ > 0,01 
2. Como « = 0,05 temos que Q995 = 30,14. 
3. Critério: Rejeitar Ho se Qops > 30,14 
4. Calcular Q,ps, dado por 


(n—1)s2  19(0,0153) 


Qobe = OE E 0,0 1 


= 29,07 


5. Conclusão: como Qops = 29,07 < 30,14, a hipótese nula não deve ser rejeitada. Ou seja, não há 
evidências de que a variância do volume de enchimento exceda 0,01 onça fluída”. 


Figura-23: Teste Unilateral à Direita 95% de Confiança.. 


Região de 
aceitação 


Região de rejeição 


29.07 30,14 
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6. Vamos agora calcular o p-valor: 
p — valor = P[Q > Qops] = PIQ > 29,07] = 0,064892 


7. Como n = 20, s? = 0,0153 e Qo9s = 30,14, segue que o intervalo de confiança para o? com 95% 
de confiança é dado por 
— 1)s? 


IC(02,95%) = (E 
0,9 


co) = (0,00964, 00) 
95 


EXERCÍCIOS PARA TREINAMENTO 


Questão 1 


Uma empresa produz saquinhos de salgadinhos de 5009. Para verificar se a máquina de empacotar 
está trabalhando corretamente o controle de qualidade tomou uma amostra de 50 saquinhos, que 
apresentou uma média amostral de 475g e desvio padrão amostral de 309. Os dados obtidos 
proporcionam evidências suficientes para concluir que a máquina de empacotar não está 
trabalhando adequadamente (ou seja, a máquina empacota com pesos diferentes do proposto)? 
Realize o teste com a = 0,01. Observando o problema acima assinale a alternativa que representa a 
hipótese nula e a hipótese alternativa. 


A) Ho: u=475g e Ha: u44759. 
B) Ho: u=475g e Ha: u>4759. 
C) Ho: u=475g e Ha: u<4759. 
D) Ho: u=500g e Ha: uz 5009. 
E) Ho: u=500g e Ha: u<4759g 


Questão 2 


Uma empresa produz saquinhos de salgadinhos de 5009. Para verificar se a máquina de empacotar 
está trabalhando corretamente o controle de qualidade tomou uma amostra de 50 saquinhos, que 
apresentou uma média amostral de 475g e desvio padrão amostral de 309. Os dados obtidos 
proporcionam evidências suficientes para concluir que a máquina de empacotar não está 
trabalhando adequadamente (ou seja, a máquina empacota com pesos diferentes do proposto)? 
Realize o teste com a = 0,01. Após a realização do teste o que podemos concluir? 


A) Rejeitamos a hipótese nula. A máquina não está trabalhando adequadamente. 
B) Não rejeitamos a hipótese nula. A máquina não está trabalhando adequadamente. 


) 
) 
C) Não rejeitamos a hipótese nula. A máquina está trabalhando adequadamente. 
D) Rejeitamos a hipótese nula. A máquina está trabalhando adequadamente. 

) 


E) Nada podemos concluir. 


Questão 3 


Pesquisadores de uma clínica de emagrecimento desejam comparar a eficácia de uma dieta com 
exercícios contra uma dieta sem exercícios. Oitenta pacientes foram aleatoriamente selecionados e 
divididos em dois grupos. O primeiro grupo, com 35 pacientes foi colocado no programa de dieta 
com exercícios. O segundo grupo, com 45 pacientes, foi colocado no programa com dieta sem 
exercícios. Os resultados com a perda de peso, em quilogramas, após 4 meses, foram: Grupo 1: 
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média amostral de 8kg e desvio padrão amostral de 1,5 kg. Grupo 2: média amostral de 8,2 kg e 

desvio padrão amostral de 1,8kg. Determine com o nível de significância de 0,05, se existe diferença 

entre os dois tratamentos. Observe o problema acima e assinale a alternativa que representa a 

hipótese nula e a hipótese alternativa. 

A) Ha: ui=u2 e Ho: ul <u2 

B) Ho: ut=u2 e Ha: ul>u2 

C) Ho: u1=u2 e Ha: ui<u? 

D) Ha: y1=u2 e Ho: ul zu? 
) 


E) Ho: ul=u2 e Ha: ulzu2 


RESOLUÇÕES: 
Resposta Questão 1 
Gabarito:Letra D. 


Resposta Questão 2 
Gabarito:Letra A. 


Resposta Questão 3 
Gabarito:Letra E. 
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Capítulo 4 


Correlação e Regressão 
Linear 


4.1 DEFINIÇÕES: 
+ REGRESSÃO LINEAR 


Em estatística ou econometria, regressão linear é uma equação para se estimar a condicional (valor 
esperado) de uma variável y, dados os valores de algumas outras variáveis x. 


+ CORRELAÇÃO LINEAR 


Em probabilidade e estatística, correlação, dependência ou associação é qualquer relação 
estatística (causal ou não causal) entre duas variáveis e correlação é qualquer relação dentro de 
uma ampla classe de relações estatísticas que envolva dependência entre duas variáveis. 


Uma medida do grau e do sinal da correlação é dada pela covariância entre as duas variáveis 
aleatórias X e Y que é uma medida numérica de associação linear existente entre elas, e definida 
por: 


4.2 PARÂMETROS IMPORTANTES: 
4.2.1 COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON: 


Esse coeficiente serve para detectar padrões lineares (não vale para os padrões não lineares). 


a nZdve EIA 
nn =P qniy 0) 


O valor de r está sempre entre 1e -1,ou seja -1<r<1. 
Se r está próximo de 1, há uma forte correlação positiva. 
Se r está próximo de -1, há uma forte correlação negativa. 


Se r está próximo de 0, não há correlação linear. 
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É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação, 
uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma 
delas a idade (X) e a massa muscular (Y). 


Massa muscular (Y) Idade (X) 


Exercício 01 


82.0 71.0 
91.0 64.0 
100.0 43.0 
68.0 67.0 
87.0 56.0 
73.0 73.0 
78.0 68.0 
80.0 56.0 
65.0 76.0 
84.0 65.0 
116.0 45.0 
76.0 58.0 
97.0 45.0 
100.0 58.0 
105.0 49.0 
T7.O 78.0 
73.0 73.0 
78.0 68.0 


Calcule o coeficiente de correlação linear entre X e Y. 


(Denotamos as variáveis: Y = Massa Muscular e X = Idade n=18) 


18 18 18 
X=61556F=85 9 x2= 70362 5 y2 = 133300 5 YX; = 91064 


i=1 i=1 i=1 


18 — 
Sex = X2 -18(X) =70362-18(61,556)? = 2157,460 
i=1 


= 12 
Sy= Y5 18(Y) =133300 18(85))=3251 
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18 Ea o 18 NE 
DX, IOM, 7) XY, -18XY 


i=] 


e E * 91964-18(85)(61556) + 0.837 


i=] 
fr FE (2157,460)3250) 


O resultado demonstra que existe uma forte correlação negativa. 


Exercício 02 


Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em unidades 
monetárias) para uma amostra de 25 famílias. 


Renda Familiar (X) Gasto com Alimentação (Y) 
3 1,5 
5 2,0 
10 6,0 
10 7,0 
20 10,0 
20 12,0 
20 15,0 
30 8,0 
40 10,0 
50 20,0 
60 20,0 
70 215,0) 
70 30,0 
80 25,0 
100 40,0 
100 35,0 
100 40,0 
120 30,0 
120 40,0 
140 | 40,0 
150 50,0 
180 40,0 
180 50,0 

200 60,0 
200 50,0 


(a)Calcular o coeficiente de correlação entre essas variáveis. 


Denotamos as variáveis: Y = Gasto com Alimentação e X = Renda familiar 
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=: As 25 25 25 
X =83,120Y =26,660> X? = 271934 3" Y? = 24899,2505Y, X, = 80774,500 


i=1 i=] i=l 


25 
E 3X, -25XY 
a e =(0,954 
SySy SySy 


O resultado demonstra que existe uma forte correlação positiva. 


4.2.2 CORRELAÇÃO E CAUSA: 


É importante salientar que o coeficiente de correlação define apenas o sentido da variação conjunta 
das variáveis. A observação que duas variáveis tendem variar simultaneamente em uma direção ou 
em direções contrárias, onde os dados provavelmente indicaram uma correlação positiva ou 
negativa, alta, não implicaria necessariamente na presença de uma relação de causa e efeito entre 
elas. Assim, na Figura 9 nota-se que existe uma correlação negativa entre o consumo de proteínas e 
o coeficiente de natalidade. Entretanto, isto não implica em afirmar que um aumento no consumo de 
proteínas determina redução da fertilidade. Portanto, uma correlação observada pode ser falsa 
(correlação espúria), isto é, pode ser devido a uma terceira e desconhecida variável causal. 


Figura-24: Diagrama de dispersão para o consumo individual diário de proteínas de origem animal e 
a natalidade, em 28 países 


es 
(9) 
Ee) 
(2) 
Ae) 
Ss 
+ 
(2) 
Z 


Consumo de proteína (9) 


4.2.3 REGRESSÃO LINEAR: ESTIMAÇÃO DE PARÂMETROS 


Em experimentos que procuram determinar a relação existente entre duas variáveis, por exemplo, a 
dose de uma droga e a reação, concentração e densidade ótica, peso e altura, idade da vaca e a 
produção de leite, etc., dois tipos de situações podem ocorrer: 


(a) uma variável (X) pode ser medida acuradamente e seu valor escolhido pelo experimentador. Por 
exemplo, a dose de uma droga a ser ministrada no animal. Esta variável é a variável independente. 
A outra variável (Y), dita variável dependente ou resposta, está sujeita a erro experimental e seu 
valor depende do valor escolhido para a variável independente. Assim, a resposta (reação, Y) é uma 
variável dependente da variável independente dose (X). Este é o caso da Regressão. 


(b) as duas variáveis quando medidas estão sujeitas a erros experimentais, isto é, erros de natureza 
aleatória inerentes ao experimento. Por exemplo, produção de leite e produção de gordura medidas 
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em vacas em lactação, peso do pai e peso do filho, comprimento e a largura do crânio de animais, 
etc. Este tipo de associação entre duas variáveis constitui o problema da Correlação. 


Atualmente, se dá à técnica de correlação uma importância menor do que a da regressão. Se duas 
variáveis estão correlacionadas, é muito mais útil estudar as posições de uma ou de ambas por meio 
de curvas de regressão, as quais permitem, por exemplo, a predição de uma variável em função de 
outra, do que estudá-las por meio de um simples coeficiente de correlação. 


+ Regressão linear simples 


O termo regressão é usado para designar a expressão de uma variável dependente (Y) em função 
de outra (X), considerada independente. Diz-se regressão de Y em (sobre) X. Se a relação funcional 
entre elas é expressa por uma equação do 1º grau, cuja representação geométrica é uma linha reta, 
a regressão é dita linear. 


Para introduzir a idéia de regressão linear simples, consideremos o seguinte exemplo: 


Tabela 6: Tempo, em minutos, e quantidade de procaina! hidrolizada, em 10º moles/litro, no plasma 


canino. 
Quantidade hidrolizada 
(Y) 

2 3,5 7,0 4,0 12,3 

S) 5,4 11741 9,0 2 

5 9,9 49,5 25,0 98,0 

8 16,3 130,4 64,0 265,7 

10 19,3 193,0 100,0 372,5 

12 2 308,4 144,0 660,5 

14 28,2 394,8 196,0 795,2 

15 32,6 489,0 225,0 1062,8 
Total 69 141,2 1589,2 767,0 3299,5 


"anestésico local 


A simples observação dos dados apresentados na Tabela 5, mostra que no intervalo estudado a 
quantidade de procaina hidrolizada varia em função do tempo. 


Na resolução de problemas de regressão, o primeiro passo é traçar o diagrama de dispersão 
correspondente, marcando em um sistema cartesiano bidimensional os diversos pares de valores 
observados (x;, y;). Os dados da Tabela 1 estão apresentados na Figura 1. 


Figura 24. Diagrama de dispersão dos dados da Tabela 6. 
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É fácil ver observando essa figura, que os pontos relativos aos dados de tempo e quantidade de 
procaina hidrolizada estão praticamente sobre uma reta. Parece então razoável estabelecer que a 
variação da quantidade de procaina hidrolizada (Y) pode ser considerada como uma função linear 
do tempo (X). 


Postulada a existência de uma relação linear entre duas variáveis, pode-se representar o conjunto 
de pontos (x, 1, ) pela equação da reta: 


y=a+Bx+e 


que expressa o valor de Y como função do valor de X, onde £, conhecido como erro ou resíduo, é a 
distância que um resultado y em particular se encontra da linha de regressão da população, 
representada pela equação: 


E(y/x)=c+px, 


em que «a indica o intercepto da linha com o eixo do Y e B o coeficiente angular ou inclinação da 
reta. 


Se e [y — E(y/x)] é positivo, y é maior do que E(y/x); se é negativo, y é menor do que E(y/x); e a soma 


dos E;S éigualazero(D,€. =). Logo, a média dos erros é nula, isto é, E(g;) = 0. 
1 1 1 


Como veremos a seguir, os parâmetros a e 8 da linha de regressão da população são estimados a 
partir da amostra aleatória de observações (x, a y;) 


Considerando, então, que observações X,, X,,..., X, Sejam obtidas sobre a variável independente 
x, talque Y,,Y55--» Y, Sejam as observações feitas sobre a variável dependente y, todas sujeitas 
a erros experimentais, pode-se querer saber como é que y varia, em média, para um dado x. Ou 


seja, como os Y, variam aleatoriamente, deseja-se conhecer a distribuição do y quando x é 


conhecido. Isto é feito por meio da esperança condicionada de y dado x, simbolizada por E(y/x), 
que depende em geral de x. E(y/x) é também chamada de função de regressão de y em x. 


A Figura 2 mostra as distribuições de y dados certos valores de x, supondo a função de regressão 
de y emx linear. 


Modelo. A reta da Figura 2 é simbolizada por E(y/x) =o.+3 x, onde a e B são os parâmetros 
a serem estimados. 


Figura-25: Normalidade dos resultados y para determinado valor de x 
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A partir de agora, se o modelo acima for desenvolvido num contexto paramétrico, uma hipótese 
simplificadora e muito simples deve ser feita, a saber: a distribuição da variável aleatória y, para um 


dado x, é normal. Mais especificamente, fixado um X.(X não é uma variável aleatória), os Y, 


constituem variáveis independentes normais N(o +PBx,,o ): o que equivale dizer que as 


médias das distribuições de y/x estão sobre a verdadeira reta OL + Bx ou seja, E(y;) = E(o) + E(Px;) 
+ E(e) = a + Bx, onde E(s;)) = 0, e que para um dado valor de x, a variância do erro é sempre o?, 
denominada variância residual, isto é, Ely; — E(y/x)J” = E(s)? = o? (propriedade homocedástica). 
Estes conceitos estão ilustrados na Figura 2. À parte do fato que o? é desconhecido, a reta na qual 
as médias estão localizadas é também desconhecida. Assim, um objetivo importante da análise 
estatística é estimar os parâmetros a e 8 para que se conheça totalmente a função de regressão 
E(y/x). A teoria mostra que a melhor maneira de estimá-los é por meio do método dos quadrados 


mínimos, que consiste em minimizar a soma dos quadrados das distâncias Y, —Y,, onde 


il 
y, =a+bx, representa a equação de regressão estimada, tal que a=ãG eb =p são os 
estimadores de a e B, respectivamente. 


Sendo, então, Y; — y; a diferença entre o valor observado e o estimado pela equação de 
regressão para cada observação, a qual é rotulada por e; procura-se estimar a e B, de modo que 
Se? => (Yi = 80) seja o menor possível. As diferenças e = Y; — y; são chamadas 


“desvios da regressão” ou “erros de estimativas”. Se todos os desvios (e;) são iguais a zero, implica 
que cada ponto (x;, y;) se encontra diretamente sobre a linha ajustada; os pontos estão tão próximos 
quanto possíveis da linha. 


Estimadores. Dado um conjunto de n pares de observações (x4, Y1), (X2, Y2), ..., (Xny Yn), pode-se 
mostrar usando métodos de cálculo infinitesimal não utilizado aqui, que os estimadores de 
quadrados mínimos são: 


2x, =), mir y- 


== Ses 


Dividindo-se o numerador e o denominador de b por (n- 17), vê-se que 


b é denominado coeficiente de regressão de Y em X; simboliza-se por by x 


st (Ato Db me 
= sz E X(x; -32]/n-1 


Fórmulas de cálculo: 


Dx DG, -D=Dxy; Lx 
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2 
6 Er => x; (Dx) 
n 


Note-se que, além da suposição da normalidade do y, outras hipóteses usadas pelo método de 
mínimos quadrados são: 


+ para qualquer valor específico de x, O o desvio padrão dos resultados y, não se modifica. 


y/x' 
Esta hipótese de variabilidade constante em todos os valores de x é conhecida como 
homoscedasticidade, e 


(b) a relação (verdadeira) entre ye x é suposta linear; mais claramente, E(y/x) = a + Bx. 


Ty = 2457 
se ho 
YX za? - E 


A fórmula de cálculo acima pode ser melhor trabalhada e ficaria expressa como: 


p= 1LXY— 2). 0,9) 
e Sr: 


A 


Re bx sendo a equação de regressão: Y =a+bx 


Para traçar a reta de regressão, basta dar valores quaisquer para X dentro do intervalo estudado e 


calcular os respectivos valores de Y (Figura 3). Os valores calculados de Y não coincidem 
necessariamente com os valores observados de Y. A curva resultante é denominada de regressão 
de Y para X, visto que Y é avaliado a partir de X. O mais importante objetivo de um estudo de 
regressão é usar o modelo linear desenvolvido para estimar a resposta esperada correspondente a 
um valor futuro. 


+ Coeficiente de Determinação: O coeficiente de determinação, também chamado de R?, é uma 
medida de ajustamento de um modelo estatístico linear generalizado, como a regressão linear, 
em relação aos valores observados. O Rº varia entre O e 1, indicando, em percentagem, o 
quanto o modelo consegue explicar os valores observados. Quanto maior o R2, mais explicativo 
é o modelo, melhor ele se ajusta à amostra. Por exemplo, se o Rº de um modelo é 0,8234, isto 
significa que 82,34% da variável dependente consegue ser explicada pelos regressores 
presentes no modelo. 


Sendo: 
SQE = Soma dos quadrados dos Erros. 
SQT = Soma dos Quadrados Total Corrigida. 


SQR = Soma dos Quadrados da Regressão. 


Sendo SQT = SOR + SQE ---— > SQR = SQT — SQE -—- é 
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po SOR | SOB BLEACH 
Sige SQT Lia)? 


ou seja, é a razão entre a soma de quadrados da regressão e a soma de quadrados total. No 
modelo com intercepto, podemos escrever 


Rê = B Di=i(X — X)F; = Zi A LD TM, = Cabe 0)" 
0 =P) et 2 LP ia tp 2 Rima = PJ 
Notemos que 
0<R*<1 


O R2é, portanto, uma medida descritiva da qualidade do ajuste obtido. Em geral, referimo-nos ao 
R? como a quantidade de variabilidade nos dados que é explicada pelo modelo de regressão 
ajustado. Entretanto, o valor do coeficiente de determinação depende do número de observações 
(n), tendendo a crescer quando n diminui. Se n = 2 tem-se sempre R? = 1 


O R2deve ser usado com precaução, pois é sempre possível torná-lo maior pela adição de um 
número suficiente de termos ao modelo. Assim, se, por exemplo, não há dados repetidos (mais do 
que um valor y para um mesmo x) um polinômio de grau (n - 1) dará um ajuste perfeito 


R? = 1 para n dados. Quando há valores repetidos, o R? não será nunca igual a 1, pois o modelo 
não poderá explicar a variabilidade devido ao erro puro. 


Obs.: O Coeficiente de Determinação pode ser calculado simplesmente elevando o Coeficiente de 
Correlação Linear de Pearson ao quadrado. 


+ Coeficiente de Determinação Ajustado 


Para evitar dificuldades na interpretação de R?, alguns estatísticos preferem usar o R2 (R? ajustado), 
definido para uma equação com 2 coeficientes como: 


n—1 
Rá = [= qu RO) 


Assim como o Coeficiente de Determinação R?, quanto maior RZ, mais a variável resposta é 
explicada pela regressora X. 
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Um motorista deseja prever seus gastos com seu automóvel em função dos quilômetros que roda 
por mês. 


Exercício 03 


3203 400 Estatística de Regressão 
3203 400 R múltiplo 0,9931 
2603 340 R-Quadrado  0,9862 
3105 400 R-quadrado 0,9855 
ajustado 

1305 150 Erro padrão 127,51 
804 100 Observações 23 
1604 200 

2706 300 

805 100 

1903 200 

3203 400 

3702 450 

3203 400 

3203 400 

808 100 

803 100 

1102 130 

3202 400 

1604 150 

1603 200 

3203 400 

3702 450 

3403 440 


Observando a tabela acima, percebe-se uma forte correlação entre as variáveis, onde R está muito 
próximo de 1. Quilômetros rodados explica 98% da variância de gastos. 


Exercício 04 — Retornando aos dados do Exercício 02 


Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em unidades 
monetárias) para uma amostra de 25 famílias. 
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Renda Familiar (X) Gasto com Alimentação (Y) 
3 1,5 
5 2,0 
10 6,0 
10 7,0 
20 10,0 
20 12,0 
20 15,0 
30 8,0 
40 10,0 
50 20,0 
60 20,0 
70 25,0 
70 30,0 
80 25,0 
100 40,0 
100 35,0 
100 40,0 
120 30,0 
120 40,0 
140 40,0 
150 50,0 
180 40,0 
180 50,0 

200 60,0 
200 50,0 


Denotamos as variáveis: Y = Gasto com Alimentação e X = Renda familiar 


E Es 25 25 25 
X =83,120Y = 26,660 X7 = 271934 3" Y? = 248992505 Y, X, = 80774,500 


i=] i=] i=l 


Obtenha a equação de regressão do gasto com alimentação em função da renda familiar. 


25 E 
>,XY,-25XY 
à - Sae E - 807745 -25(83,12/26.66) 6 og 
ae CEA 271934 — 25(83,12)? , 
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Bo=Y-2,X = 26,66-0,256(83,120)= 5,380 


A reta de regressão estimada da variável Gasto de alimentação (Y) em função da Renda familiar (X) 
é 


Y =5.380+0,256X 


Qual o significado prático do valor da inclinação da reta de regressão do item (c)? 


O valor Ê, =0,256 significa que estima-se que para cada aumento de uma unidade monetária da 
renda familiar ocorre um acréscimo em média de 0,256 unidades no gasto 


EXERCÍCIOS PARA TREINAMENTO 
Questão 1 


Uma agência de turismo estudou a demanda de passagem sem relação à variação do preço de 
venda e obteve os valores da tabela a seguir: 


Preço de Venda (x) 33 25 24 18 12 10 8 4 
Demanda de Passagens (y) 300 400 500 600 700 800 900 1000 


PreçodeVenda(o) [33 [25 | 2» | 18 | LE] 
Demanda de Passagens (9) | 300 | 400 | 500 | 600 | 70 | 800 | 900 | 1000 ] 


Preencha a tabela a seguir e calcule o coeficiente de correlação linear por meio da fórmula do 
coeficiente de correlação de Pearson. 


x y x.y xo y2 
Total 
R = -0,62 
Questão 2 


Uma agência de viagens realizou um estudo sobre as passagens de avião que vendeu nos últimos 
meses e a soma de horas trabalhadas por todos seus funcionários (lembre que o número de 
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funcionários é variável). Calcule o coeficiente de correlação linear pelo coeficiente de correlação de 
Pearson. 


Horas Trabalhadas Passagens 


Janeiro 1378 154 
Fevereiro 1292 146 
Março 1146 110 
Abril 854 98 
Maio 973 105 
Junho 996 118 
Julho 1241 143 
Agosto 1208 105 
Setembro 1045 112 
Total 
R=0,8227 
Questão 3 


Considere os valores da tabela a seguir e calcule o coeficiente de correlação linear por meio da 
fórmula do coeficiente de correlação de Pearson. 


R= 0,8464 


Questão 4 
Como resultado de um experimento foram obtidos os seguintes valores para a função f(x) 


F6x) 10 9 7 5 4 3 0 E 


Determinar qual é a melhor reta g(x)=ax+b, que ajusta esses pontos através do método da 
Regressão Linear 


Zad Disi o HE Es 1 f(x) 


Lembre que: 
i=1M4 Zi 1% i= 1 (Xi) Xi 


ry =-1,6071 + 8,6427 
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Questão 5 


Dada a tabela de pontos experimentais: 


F(x) Ea 8 4,2 5,1 


6,3 


Obtenha a reta que melhor ajusta os pontos através do método da Regressão Linear. 
Rey=x+ 1,22 
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